Pre-trained language models (PLMs) are known to improve the generalization performance of natural language understanding models by leveraging large amounts of data during the pre-training phase. However, the out-of-distribution (OOD) generalization problem remains a challenge in many NLP tasks, limiting the real-world deployment of these methods. This paper presents the first attempt at creating a unified benchmark named GLUE-X for evaluating OOD robustness in NLP models, highlighting the importance of OOD robustness and providing insights on how to measure the robustness of a model and how to improve it. The benchmark includes 13 publicly available datasets for OOD testing, and evaluations are conducted on 8 classic NLP tasks over 19 popularly used PLMs. Our findings confirm the need for improved OOD accuracy in NLP tasks, as significant performance degradation was observed in all settings compared to in-distribution (ID) accuracy.
translated by 谷歌翻译
半监督学习(SSL)通过利用大量未标记数据来增强有限标记的样品来改善模型的概括。但是,目前,流行的SSL评估协议通常受到计算机视觉(CV)任务的约束。此外,以前的工作通常从头开始训练深层神经网络,这是耗时且环境不友好的。为了解决上述问题,我们通过从简历,自然语言处理(NLP)和音频处理(AUDIO)中选择15种不同,具有挑战性和全面的任务来构建统一的SSL基准(USB),我们会系统地评估主导的SSL方法,以及开源的一个模块化和可扩展的代码库,以对这些SSL方法进行公平评估。我们进一步为简历任务提供了最新的神经模型的预训练版本,以使成本负担得起,以进行进一步调整。 USB启用对来自多个域的更多任务的单个SSL算法的评估,但成本较低。具体而言,在单个NVIDIA V100上,仅需要37个GPU天才能在USB中评估15个任务的FIXMATCH,而335 GPU天(除ImageNet以外的4个CV数据集中的279 GPU天)在使用典型协议的5个CV任务上需要进行5个CV任务。
translated by 谷歌翻译
大多数以前的基于学习的图形匹配算法通过丢弃一个或多个匹配约束并采用放宽的分配求解器来获取次优关卡的\ Textit {二次分配问题}(QAP)。这种放松可能实际上削弱了原始的图形匹配问题,反过来伤害了匹配的性能。在本文中,我们提出了一种基于深度学习的图形匹配框架,其适用于原始QAP而不会影响匹配约束。特别地,我们设计一个亲和分分配预测网络,共同学习一对亲和力并估计节点分配,然后我们开发由概率亲和力的可分辨率的求解器,其灵感来自对成对亲和力的概率视角。旨在获得更好的匹配结果,概率求解器以迭代方式精制估计的分配,以施加离散和一对一的匹配约束。所提出的方法是在三个普遍测试的基准(Pascal VOC,Willow Object和Spair-71K)上进行评估,并且在所有基准上表现出所有先前的最先进。
translated by 谷歌翻译
近年来,线性分配问题(LAP)的可分解求解器(LAP)引起了很多研究的关注,通常嵌入到学习框架中作为组件。然而,以前的算法,有或没有学习策略,通常随着问题大小的增量而遭受最优性的降低。在本文中,我们提出了一种基于深图网络的学习线性分配求解器。具体地,我们首先将成本矩阵转换为二分图,并将分配任务转换为从构造的图表中选择可靠的边缘的问题。随后,开发了深图网络以聚合和更新节点和边的特征。最后,网络预测指示指示赋值关系的每个边缘的标签。合成数据集的实验结果表明,我们的方法优于最先进的基线,并以问题尺寸的增量达到始终如一的高精度。此外,我们还与最先进的基线求解器相比,嵌入了所提出的求解器,进入流行的多目标跟踪(MOT)框架,以以端到端的方式训练跟踪器。 MOT基准的实验结果表明,所提出的LAP解算器通过最大的边缘改善跟踪器。
translated by 谷歌翻译
未经监督的人重新识别(Reid)是一个具有挑战性的任务,没有数据注释,以指导歧视性学习。现有方法通过群集提取的嵌入式来尝试解决此问题以生成伪标签。然而,大多数方法忽略了摄像机样式方差引起的类内间隙,并且一些方法是相对复杂和间接的,尽管它们试图解决相机样式对特征分布的负面影响。为了解决这个问题,我们提出了一种相机感知的风格分离和对比学习方法(CA-Ureid),它直接将相机样式与设计的相机感知的注意模块直接分离在功能空间中。它可以将学习功能明确地将学习功能分为特定于相机和相机不可知的部件,从而降低了不同摄像机的影响。此外,为了进一步缩小相机的差距,我们设计了一个摄像机感知对比中心损失,以了解每个身份的更多歧视性嵌入。广泛的实验证明了我们对无监督者Reid任务的最先进方法的方法的优越性。
translated by 谷歌翻译
背景:患者的分类是控制2019年冠状病毒疾病的大流行病(Covid-19),特别是在临床资源极为有限时在大流行的峰值期间。目的:开发一种用合成胸CT自动筛分和量化肺和肺炎病变的方法,并评估Covid-19患者的疾病严重程度。材料和方法:在本研究中,我们通过可用的数据集(来自“肺结核分析2016年”的285个数据集“来生成数据增强以产生合成胸CT图像。合成图像和掩模用于训练2D U-Net神经网络并在203个Covid-19数据集上测试,以产生肺和病变分段。疾病严重程度评分(DL:损伤负荷; DS:损伤得分)是基于分段计算的。使用Pearson方法评估DL / DS和临床实验室测试之间的相关性。 p值<0.05被认为是统计显着性。结果:将自动肺和病变分段与手动注释进行比较。对于肺部分割,骰子相似系数,Jaccard指数和平均表面距离的中值分别为98.56%,97.15%和0.49 mm。病变分割的相同度量分别为76.95%,62.54%和2.36毫米。在DL / DS和百分比淋巴细胞检测中发现显着(P << 0.05)相关性,R值分别为-0.561和-0.501。结论:基于胸部射线照相和数据增强的AI系统对Covid-19患者的肺癌和病变进行了分段。成像结果与临床实验室测试之间的相关性表明该系统的价值作为评估Covid-19疾病严重程度的潜在工具。
translated by 谷歌翻译
Covid-19已成为全球大流行,仍然对公众产生严重的健康风险。 CT扫描中肺炎病变的准确和有效的细分对于治疗决策至关重要。我们提出了一种使用循环一致生成的对冲网络(循环GaN)的新型无监督方法,其自动化和加速病变描绘过程。工作流程包括肺体积分割,“合成”健康肺一代,感染和健康的图像减法,以及二元病变面膜创造。首先使用预先训练的U-Net划定肺体积,并作为后续网络的输入。开发了循环GaN,以产生来自受感染的肺图像的合成的“健康”肺CT图像。之后,通过从“受感染的”肺CT图像中减去合成的“健康”肺CT图像来提取肺炎病变。然后将中值过滤器和K-Means聚类应用于轮廓的病变。在两个公共数据集(冠状遗传酶和Radiopedia)上验证了自动分割方法。骰子系数分别达到0.748和0.730,用于冠状遗传酶和RadioPedia数据集。同时,对冠纳卡酶数据集的病变分割性的精度和灵敏度为0.813和0.735,以及用于Radiopedia数据集的0.773和0.726。性能与现有的监督分割网络和以前无监督的特性相当。提出的无监督分割方法在自动Covid-19病变描绘中实现了高精度和效率。分割结果可以作为进一步手动修改的基线和病变诊断的质量保证工具。此外,由于其无人自化的性质,结果不受医师经验的影响,否则对监督方法至关重要。
translated by 谷歌翻译
在这项工作中,我们专注于互动人类解析(IHP),旨在将人体形象分成多个人体部位,具有来自用户的相互作用的指导。这项新任务继承了人类解析的类感知属性,其无法通过通常是禁止类别的传统交互式图像分割方法很好地解决。为了解决这项新任务,我们首先利用用户点击以识别给定图像中的不同人为部分。随后将这些点击转换为语义感知的本地化映射,其与RGB图像连接以形成分割网络的输入并生成初始解析结果。为了使网络能够更好地了解用户在校正过程中的目的,我们调查了改进的几个主要方法,并揭示了基于随机采样的点击增强是推广校正效果的最佳方式。此外,我们还提出了一种语义感知损失(SP损失)来增加培训,这可以有效利用点击的语义关系以获得更好的优化。为了最好的知识,这项工作是第一次尝试在交互式设置下解决人类解析任务。我们的IHP解决方案在基准嘴唇上实现了85 \%Miou,Pascal-Person-Part和CiHP,75 \%Miou,只有1.95,3.02,2.84和每班3.09点击的Helen。这些结果表明,我们只需几个人类努力就可以获得高品质的人类解析面具。我们希望这项工作能够激励更多的研究人员在未来为IHP开发数据有效的解决方案。
translated by 谷歌翻译
我们的目标是国内机器人进行长期室内服务。在日常人类活动引起的对象级场景的动态下,机器人需要在场景不确定性的情况下稳健地将自己定位于环境中。以前的工作已经解决了基于视觉的本地化在静态环境中的本地化,但是对象级场景动态挑战了机器人长期部署的现有方法。本文提出了一个语义理解网络(Seannet)体系结构,该体系结构可以通过耦合的视觉和语义输入来实现有效的学习过程。借助包含对象动态的数据集,我们提出了一个级联的对比度学习方案,以训练Seannet学习矢量场景嵌入。随后,我们可以测量当前观察到的场景和目标场景之间的相似性,从而在对象级动力学下实现强大的本地化。在我们的实验中,我们在场景相似性测量方面对抗最先进的图像编码网络(基线)进行基准测试。带有建议的训练方法的Seannet架构可以达到85.02 \%的准确性,该准确性高于基准。我们将Seannet和其他网络作为本地化进一步集成到Visual Navigation应用程序中。我们证明,与基准相比,Seannet取得了更高的成功率。
translated by 谷歌翻译
近年来,由通过图表神经网络(GNN)模型的学习鉴别表现来源,深图形匹配方法在匹配语义特征的任务中取得了很大的进展。然而,这些方法通常依赖于启发式生成的图形模式,这可能引入不可靠的关系来损害匹配性能。在本文中,我们提出了一个名为Glam的联合\ EMPH {图学习和匹配}网络,以探索用于升压图形匹配的可靠图形结构。 Glam采用纯粹的关注框架,用于图形学习和图形匹配。具体而言,它采用两种类型的注意机制,自我关注和横向于任务。自我关注发现功能之​​间的关系,并通过学习结构进一步更新功能表示;并且横向计算要与特征重建匹配的两个特征集之间的横谱图相关性。此外,最终匹配解决方案直接来自横向层的输出,而不采用特定的匹配决策模块。所提出的方法是在三个流行的视觉匹配基准(Pascal VOC,Willow Object和Spair-71K)上进行评估,并且在以前的最先进的图表匹配方法中通过所有基准测试的重要利润率。此外,我们的模型学习的图形模式被验证,通过用学习的图形结构替换其手工制作的图形结构,能够显着增强先前的深度图匹配方法。
translated by 谷歌翻译